Resolución de Correferencia de Nombres de Persona para Extracción de Información Biográfica

نویسندگان

  • Marcos García
  • Pablo Gamallo
چکیده

Information extraction systems need a previous processing step in order to recognize coreferential elements, such as personal name variants. This paper has two aims: the first is to describe the main types of personal name coreference found in encyclopedic and journalistic texts in Spanish. Furthermore, we introduce an algorithm that solves most coreferential links between personal name variants succesfully. The system, which does not need a training corpus, unifies the coreferential elements found in a text, thereby improving tasks like biographical information extraction.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Internet como fuente de información léxica: extracción de etiquetas de dominio y detección de nuevos sentidos

Resumen Describimos un algoritmo que combina información léxica (extráıda de WordNet 1.6) con información en Internet (directorios de Altavista) para caracterizar automáticamente los sentidos de una palabra con etiquetas de dominio y, al mismo tiempo, detectar y describir nuevos sentidos relevantes en Internet. Esta información puede utilizarse, entre otras cosas, para enriquecer bases de datos...

متن کامل

Propuesta de un sistema de extracción de información farmacoterapéutica a partir de documentos especializados procedentes de diversas fuentes en castellano

Hoy en d́ıa, disponemos de una gran cantidad de información digital relativa a la salud. El uso de esta información, mayoritariamente textual, resulta cŕıtico para innovar en las investigaciones médicas, para mejorar la calidad de la atención sanitaria y para reducir costes [FRC13]. Y sin embargo, el personal sanitario tiene dificultades para poder aprovechar tal cantidad de información multilin...

متن کامل

Resolución de consultas anónimas sobre DNS

Resumen—La utilización de DNS como mecanismo base de nuevos servicios telemáticos basados en resolución de nombres puede suponer riesgos en seguridad y privacidad. La información intercambiada entre clientes y servidores viaja sin ningún tipo de protección. Dicha información puede ser capturada por malware o servidores de acceso deshonestos y acabar siendo vendida para su utilización en técnica...

متن کامل

Extracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos

La extracción automática de definiciones a partir de textos de especialidad es una tarea cada vez más demandante para diferentes aplicaciones del Procesamiento de Lenguaje Natural, tales como lexicografía computacional, extracción de información, semántica computacional, sistemas preguntarespuesta, minería de textos, Web semántica y aprendizaje automático. Este artículo presenta un panorama de ...

متن کامل

Metodología basada en grafos para la identicación de perfiles de usuario

Resumen. En la presente investigación se propone un modelo para la identi cación de per les de usuario, a través de la creación y análisis de un grafo de co-ocurrencia. Se utilizan 4 corpus en Inglés: de Blogs, de Redes sociales, de Críticas y de Twitter y 2 corpus en Español: de Blogs y de Críticas para el desarrollo de los grafos. Para la creación y extracción de la información del grafo se h...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 47  شماره 

صفحات  -

تاریخ انتشار 2011